智能论文笔记

近年来，低资源机器阅读理解（MRC）取得了重大进展，模型在各种语言数据集中获得了显着性能。但是，这些模型都没有为URDU语言定制。这项工作探讨了通过将机器翻译的队伍与来自剑桥O级书籍的Wikipedia文章和Urdu RC工作表组合的人生成的样本组合了机器翻译的小队，探讨了乌尔通题的半自动创建了数据集（UQuad1.0）。 UQuad1.0是一个大型URDU数据集，用于提取机器阅读理解任务，由49K问题答案成对组成，段落和回答格式。在UQuad1.0中，通过众包的原始SquAd1.0和大约4000对的机器翻译产生45000对QA。在本研究中，我们使用了两种类型的MRC型号：基于规则的基线和基于先进的变换器的模型。但是，我们发现后者优于其他人;因此，我们已经决定专注于基于变压器的架构。使用XLMroberta和多语言伯特，我们分别获得0.66和0.63的F1得分。

translated by 谷歌翻译

The network architecture of end-to-end (E2E) automatic speech recognition (ASR) can be classified into several models, including connectionist temporal classification (CTC), recurrent neural network transducer (RNN-T), attention mechanism, and non-autoregressive mask-predict models. Since each of these network architectures has pros and cons, a typical use case is to switch these separate models depending on the application requirement, resulting in the increased overhead of maintaining all models. Several methods for integrating two of these complementary models to mitigate the overhead issue have been proposed; however, if we integrate more models, we will further benefit from these complementary models and realize broader applications with a single system. This paper proposes four-decoder joint modeling (4D) of CTC, attention, RNN-T, and mask-predict, which has the following three advantages: 1) The four decoders are jointly trained so that they can be easily switched depending on the application scenarios. 2) Joint training may bring model regularization and improve the model robustness thanks to their complementary properties. 3) Novel one-pass joint decoding methods using CTC, attention, and RNN-T further improves the performance. The experimental results showed that the proposed model consistently reduced the WER.

translated by 谷歌翻译

Metric-based multimodal meta-learning for human movement identification via footstep recognition

Muhammad Shakeel , Katsutoshi Itoyama , Kenji Nishida , Kazuhiro Nakadai

分类：人工智能 | 机器学习

2021-11-15

我们描述了一种新的基于度量的学习方法，介绍了一个多模态框架，并在暹蒙配置中使用深音频和地震检波器编码，以设计适应和轻量级的监督模型。该框架消除了昂贵的数据标签过程的需求，并从从全峰传感系统获得的低多个多师数据学习通用表示。这些传感系统在活动识别任务中提供了许多应用和各种用例。在这里，我们打算探索来自室内环境的人类足迹运动，并分析来自基于声学和振动的传感器的小型自收集数据集的表示。核心思想是在两个感官特征之间学习合理的相似性，并将来自音频和地震孔信号的表示组合。我们提出了一种广义框架，用于从音频和地理孔信号中提取的时间和空间特征中学习嵌入的嵌入。然后，我们提取共享空间中的表示，以最大化声音和地理声音功能之间的兼容功能的学习。反过来，这可以有效地用于从学习模型执行分类任务，如通过将高相似性分配与人体脚步运动的对和不含脚步运动的对的相似性。性能分析表明，我们提出的多模式框架实现了19.99 \％的准确性增加（绝对术语），并且当训练样本从200对增加到只需500对时，避免在评估集上的过度拟合，同时令人满意地学习音频和地震听音乐声音表示。我们的结果采用基于度量的对比学习方法，用于多传感器数据，以减轻数据稀缺的影响，并利用有限的数据尺寸执行人体运动识别。

translated by 谷歌翻译

口吃是一种言语障碍，在此期间，语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题，涉及病理学，心理学，声学和信号处理，使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域，但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中，我们回顾了全面的声学特征，基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。

translated by 谷歌翻译